zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-07-14 10:34:47
.
AIbase
.
10.2k
视频理解新突破!谷歌推通用视频模型VideoPrism 精准分类、定位、检索一网打尽!
文章介绍了一款名为VideoPrism的视频编码器,由谷歌研究团队开发。这款模型可在多种视频理解任务中运用单一模型实现先进性能,包括视频分类、定位和生成字幕,甚至回答视频相关问题。训练方法涉及三个阶段:展示多样视频、使用高质量视频-字幕对和带有噪声的平行文本训练模型。训练数据量庞大规模,包括3600万高质量数据、5820百万个数据对。VideoPrism基于标准视觉变换器(ViT)进行空间和时间上因子化设计,并通过预训练方法进行针对性训练。该模型在多项视频理解任务上展现出优越性能,达到业界先进水平。虽然带来了视频理解领域的革新潜力,但在处理长视频和避免偏见方面仍面临挑战,需进一步研究解决。